断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。1、新“拟随机实验”方法的兴起——断点回归及其在经济学中的应用
作者
余静文、王春超,本文是国家社科基金项目( 10B JL 032) 、教育部人文社会科学研究项目 ( 09YJC 790122) 和广东省普通高校人文社会科学 研究项目( 10WYXM042) 的阶段性研究成果
摘要:随机实验的时间成本和经济成本都比较高, 同时出于对伦理道德的考虑, 随机实验的实施在现实中往往受到诸多限制, 而断点回归方法能够利用现有的约束条件避免参数估计的内生性问题, 从而真实反映出变量之间因果关系, 其实证结果也被证明为最接近随机实验的结果。本文拟从断点回归的理论、历史发展、实证步骤和其在经济学中的应用四个方面阐述断点回归这一个新“拟随机试验”方法的兴起。2010年度的约翰·贝茨·克拉克奖章 (John Bates Clark Medal) 授予了麻省理工学院经济系的Esther Duflo教授, 以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。在因果关系分析的实证方法中, 最优的选择应当为随机实验, 但是随机实验的时间成本和经济成本都比较高, 而在随机实验不可得的情况下, 需要考虑使用其他方法。断点回归 (Regression Discontinuity) 便是仅次于随机实验的, 能够有效利用现实约束条件分析变量之间因果关系的实证方法。Lee (2008) 认为在随机实验不可得的情况下, 断点回归能够避免参数估计的内生性问题, 从而真实反映出变量之间的因果关系。然而, 断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。2001年, Hahn et al对断点回归模型的识别和估计的理论问题进行了严格细致的分析, 此后, 断点回归才在众多的经济学研究领域中崭露头角。时至今日, 断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。然而, 断点回归却鲜为中国经济学者所应用, 正是基于断点回归在实证研究中的重要性和国内文献的缺乏, 本文拟以此为背景, 从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。
一:断点回归理论及发展历史
断点回归是一种拟随机实验, 此种随机实验定义了这样一个特征, 即接受处置 (Treatment) 的概率是一个或者几个变量的间断函数。Hahn et al (2001) 提出了断点回归的首要假设, 如果变量d表示处置效应, x表示决定处置的关键变量, 那么必须存在, 并且d+≠d-。在使用断点回归的情况下, 存在一个变量, 如果该变量大于一个临界值时, 个体接受处置, 而在该变量小于临界值时, 个体不接受处置。一般而言, 个体在接受处置的情况下, 无法观测到其没有接受处置的情况, 而在断点回归中, 小于临界值的个体可以作为一个很好的可控组 (Control Group) 来反映个体没有接受处置时的情况, 尤其是在变量连续的情况下, 临界值附近样本的差别可以很好地反映处置和经济变量之间的因果联系。断点回归可以分为两类:第一类, 临界值是确定的 (Sharp) , 即在临界值一侧的所有的观测点都接受了处置, 反之, 在临界值另一侧的所有观测点都没有接受处置。此时, 接受处置的概率从临界值一侧的0跳转到另一侧的1。第二类, 临界点是模糊的 (Fussy) , 即在临界值附近, 接受处置的概率是单调变化的。Hahn et al (2001) 在一定的假设下, 证明了无论是哪一类型的断点回归, 都可以利用临界值附近样本的系统性变化来研究处置和其他经济变量之间的因果关系。断点回归是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的, 从那时开始直到20世纪80年代, Campbell和西北大学心理学系和统计学系的同事一直从事断点回归的设计和研究工作。Thistlethwaite&Campbell (1960) 正式发表了第一篇关于断点回归的论文, 他们提出断点回归是在非实验的情况下处理处置效应 (Treatment Effects) 的一种有效的方法, 主要应用于心理学和教育学领域。随后, Campbell&Stanley (1963) 为断点回归提供了更加清晰化的概念, 但是他们并没有给出断点回归统计上的证明。在他们看来, 断点回归主要是为了解决选择性偏误 (Selection Bias) 问题, 断点回归利用了一个取决于某连续变量的间断函数, 这个间断函数完全决定了个体是否受到处置, 这就使得样本选择的细节完全展示出来, 使得我们知道样本选择的问题所在。此外, Campbell&Stanley还认为断点回归仅仅是在间断的临界值处类似于随机实验, 其推论的有效性也仅仅局限于间断的临界值处。整个20世纪60年代, 断点回归方法的应用还停留在一种直觉的推导, 而缺乏统计上严密的证明。Goldberger (1972a, b) 曾对断点回归的无偏因果推断进行了证明, 可惜的是, 他的论文并没有得到发表, 这主要是因为他认为断点回归的适用环境是一个高度理想化的环境, 其适用范围十分有限。相反, 变量之间因果关系的推断还包括了工具变量法 (IV Approach) 和Heckman处理样本选择问题的模型, 这两种方法的适用性更加广泛, 从而使得人们忽视了断点回归方法的应用, 也使得断点回归在很长一段时间内消失在人们的视野之中。随着Campbell等人所认为的断点回归适用性仅仅局限于临界值附近这一论断被证伪之后, 断点回归才开始重新回到人们的视野之中。Rubin (1977) 证明了在个体是否接受处置仅仅取决于一个关键变量的情况下, 处置效应能够在关键变量的整个范围内得到无偏的因果推断。Sacks&Ylvisaker (1978) 提出了断点回归的估计方法, 并在理论上给予了较粗略的证明。他们将被解释变量分解为观察变量的线性组合再加上一个非随机的误差项, 其估计方法类似于局部非参数回归 (Local Nonparametric Regression) , 其有效性不仅仅是对于临界值附近的样本, 而且可以扩展到关键变量的整个领域。断点回归在理论方面取得了新进展的同时, 其他因果推断方法的不足之处也逐渐地被认识。比如, 工具变量法存在局限性, 特别是排他性 (Excludability) 条件难以满足, 即难以保证工具变量仅仅通过影响关键解释变量而影响到被解释变量, 寻找合适的工具变量存在一定的困难。此外, Lalonde (1985) 发现Heckman样本选择模型并不能产生和随机实验一样的结果。正因为因果关系的推断是经济学家所关注的最主要的问题, 并且现有的因果推断方法都不能得出完全合理的因果关系, 人们开始逐渐将目光转向了断点回归。Trochim (1984) 继续了他老师Campbell的工作, 综合了之前关于断点回归的理论和方法, 并且将断点回归类型分为两类:第一类是确定型的断点回归 (Sharp Regression Discontinuity) , 即个体在临界值一边接受处置效应的概率为1, 而在临界值另一边接受处置效应的概率为0;第二类是模糊型的断点回归 (Fuzzy Regression Discontinuity) , 即个体接受处置效应的概率均大于0小于1, 个体在临界值一边接受处置的概率大于在临界值另一边接受处置的概率。Trochim特别对第二类断点回归问题进行了研究, 并开始利用该方法进行实证研究。与Campbell观点不同, Trochim认为断点回归的应用性并非那么狭隘, 相反, 其应用范围还十分的广泛。除此之外, 他还强调了决定处置的关键变量不仅仅可以是一个单一变量, 而且还可以是一个合成变量。随后, 断点回归的优势逐渐被学界所认可, 其应用也愈加广泛。具体而言, 其优势包括两方面:第一, 断点回归可以应用于对经济成本和伦理道德问题的考虑, 随机实验不能进行的环境;第二, 断点回归优越于所有其他已知的因果推断方法, 其结果十分接近于随机实验结果。Lee&Lemieux (2010) 也通过形象的例子展示了断点回归和随机实验的相似性。Hahn et al (2001) 最终为断点回归的模型识别和模型估计进行了严格意义上的理论证明, 并提出了相应的估计方法, 由此, 断点回归在经济学中的应用如雨后春笋般出现在重要经济学文献中。
二:断点回归的实施步骤
(一) 确定型断点回归
运用图形来分析处置效应是否存在是断点回归分析的基础。图形分析在断点回归的实施中扮演着重要的角色, 通过将样本点和决定处置的关键变量在坐标系中描述出来, 便可以清楚地看到临界值附近的样本点是否存在跳跃。如果样本点存在跳跃, 那么说明确实存在处置效应, 相反, 如果样本点没有出现相应的跳跃, 那么说明断点回归的模型识别可能存在问题。当我们从图形分析中发现了临界值处存在处置效应, 那么就应当做进一步更加细致的计量实证分析。为了使图形更为直观, 需要根据决定处置的关键变量来划分箱体 (Bin) 和箱体的范围h, 并在该范围内计算变量的均值。一般而言, 箱体的范围需要大到包含足够多的样本使其样本点在临界值两边都比较平滑, 但又要小到一定程度使得样本点在临界值处的跳跃能够明显地显现出来。Lee&Lemieux (2010) 提出两种方法来选择合适的箱体范围:第一种是根据对数据的观察决定使用K个箱体;然后对K个箱体的虚拟变量做回归;随后, 将箱体范围缩小二分之一, 使得箱体由K个变为2K个, 将2K个箱体的虚拟变量作为解释变量再做一次回归。由于使用K个箱体虚拟变量的回归是内嵌于使用2K个箱体虚拟变量的回归之中的, 因此, 可以使用标准的F检验来比较判断K个箱体和2K个箱体的优劣。第二种方法是基于这样一个原理, 如果箱体足够的小, 那么被解释变量和决定处置的关键变量将不会出现系统的联系, 因此, 可以将被解释变量对箱体的虚拟变量以及该虚拟变量和决定处置的关键变量的乘积项做回归, 并使用F检验来判断虚拟变量和关键变量的乘积项是否显著的为0。通过以上方法得到合适箱体范围后, 便可以分别对临界值两边的样本进行估计, 得到临界值两边的平滑曲线, 具体实施步骤如下:第二步, 同时利用临界值两边的样本进行回归。这就好比在非参数回归中使用了rectangular的核, 选取叶宽 (bandwidth) h, 将样本的估计局限在h范围内。一般而言, 可以使用非参数回归, 但是如Hahn et al (2001) 指出的, 非参数回归会产生高阶数的偏差, 简单的非参数估计往往并不具有吸引力, 所以对于样本的回归可以采取局部线性回归 (Local Linear Regression) , 即最小化下式:这其中存在叶宽h选择的问题, Hahn et al (2001) 提出最优的叶宽与N-1/5成比例。例如, 样本增加32倍, 那么32-1/5为1/2, 叶宽就可以减少一半, 但是这并没有解决如何选择叶宽的问题。计量经济学和统计学的文献中有两种选择叶宽的方法:第一种方法是根据拇指规则 (Rule of Thumb) 对整个样本的数据进行估计以求得最优叶宽。比如, 对于rectangular的核, 最优叶宽可以根据下式求出:其中σ2是断点回归的标准差, m″ (·) 表示断点回归方程的二阶导数, R是断点回归方程估计时Xi的范围, 2.702是使用rectangular核估计的常数。另一种方法是交叉验证法 (cross-validation) , 即首先对临界值两边的样本分别进行回归, 得到:此外, 断点回归中也可以加入其他的控制变量, 这样做的原因是消除小样本偏差, 同时使得估计更为精确。具体而言:如果控制变量Z的以X为条件的分布在临界值处是连续的, 那么Z的加入对处置效应的估计几乎没有影响, 因为Z是独立于处置效应的;同时, 只要X接近临界值, 那么Z的加入并不会对估计的偏差产生任何影响, 但是, 实际应用中, 样本的选择往往并不能保证X足够接近于临界值, 因此, 在计量模型中加入控制变量可以消除由额外变量造成的偏差, 并且, 如果Z与被解释变量有关, 控制变量的加入还可以改进估计的精确性。第三步, 对断点回归的结果进行稳健性检验。首先, 需要检验其他控制变量在临界值处是否存在跳跃, 如果其他的控制变量在临界值处存在显著的跳跃, 那么被解释变量在临界值处的跳跃将不仅仅是由于处置效应所带来的, 这使得断点回归不能进行有效的因果推断。其次, 需要检验决定处置的关键变量的条件密度是否存在不连续的情况, 如果条件密度发生了跳跃, 那么说明存在个体操作关键变量的可能。为此, 可以计算每个箱体中样本的数量, 将其作为纵轴, 将关键变量作为横轴, 通过图形和回归分析来考察关键变量的分布在临界值处是否存在跳跃。如果存在跳跃, 则个体可能存在操作处置的可能, 从而使断点回归方法失效。再次, 需要检验当临界值取其他值时, 变量是否存在跳跃。如果变量不仅在临界值处存在跳跃, 而且也在其他值处存在跳跃, 那么变量的跳跃是由处置效应造成的这一推断就值得怀疑, 可能还存在其他因素决定了变量在临界值处的跳跃。最后, 需要在计量模型估计时, 使用不同的叶宽, 并且分别考虑加控制变量和不加控制变量的情况, 以此来考察不同的计量模型形式是否对结论产生了显著的变化。
(二) 模糊型断点回归
第一步, 与确定型断点回归一样, 运用图形来分析变量是否存在跳跃以及个体在临界值处接受处置的概率是否存在跳跃。第二步, 使用两阶段最小二乘 (TSLS) 的方法来估计处置效应。具体步骤如下:由于, 模糊型断点回归中需要进行两次计量回归求出τy和τD, 因此最优叶宽的选择需要同时考虑这两次回归的结果, Lee (2008) 提出使用以下的准则来求出最优叶宽:第三步, 对断点回归的结果进行稳健性检验。检验步骤与确定型断点回归一样。
三:断点回归在经济学中的应用
(一) 劳动和教育经济学领域
由于在劳动力市场和教育部门中, 政府外生制定的政策和法规种类较多, 所以断点回归在劳动和教育经济学领域中的应用十分常见。Angrist & Lavy (1999) 利用以色列教育制度对班级大小的规定, 即班级大小必须小于或等于40人, 如果超过40人, 必须将原来的班级分成两个班级, 通过断点回归来研究班级的大小对学生成绩和教育质量的影响, 他们发现班级学生人数越小, 其学生的考试成绩越好。Black (1999) 利用家庭所属入学区不同这一特征, 将入学区之间临界线两侧的样本作为研究对象, 作者使用了享乐价格函数 (Hedonic Price Function) 估计了入学区之间存在的教育质量差异对房屋价格的影响, 并以此考察了为获得更优质的教育家庭的支付意愿, 其研究结果表明, 如果小孩测试分数提高5%, 家长愿意多支付2.5%。Hoxby (2000) 运用断点回归研究了班级大小对教育质量的影响, 他同样利用了Angrist&Lavy (1999) 所使用的政府对班级大小的规定, 并考虑到入学对年龄的要求会导致不同年级的人数会有差别, 而这差别又会对班级大小产生影响这一机制, 其实证结果并没有支持Angrist&Lavy (1999) 的结果。Lalive (2007, 2008) 使用断点回归研究了失业工人补贴时限的延长对劳动力市场的影响, 由于奥地利对50岁以上失业人员补贴的时限与50岁以下失业人员补贴时限不一致, 因此, 通过比较50岁上下失业人员的情况, 就可以发现这种失业补贴时限不一致对失业时间以及新找工作的待遇和类型的影响;同时, 由于这种政策的实施还存在地理位置上的差异, 因此, 通过比较地区间临界线两侧的样本同样可以发现失业补贴时限对失业的影响, 作者证实了补贴时限越长, 工人失业的时间就越长。Chiang (2009) 利用了美国弗罗里达州实施的对教学质量没有达标的学校进行惩罚这一规定, 使用断点回归的方法研究了这种激励措施对教学质量的直接影响, 他发现受益于这种激励, 学校的教学质量, 特别是学生的数学成绩有了一定幅度的改进, 同时, 学校也加大了教学基础设施建设、实验工具和老师培训方面的支出。Clark (2009) 利用了英国中学必须获得学生家长一定份额的票数才能进行自治这一规定, 运用断点回归研究了通过投票方式获得自治的学校和没有获得自治的学校在教学质量上的差别, 他发现得到自治权的学校在考试通过率上表现更好。雷晓燕等 (2010) 利用了中国政府对退休年龄的规定, 运用断点回归的方法分析了退休对健康的影响, 他们发现在正常退休年龄退休对男性健康有显著的负面影响, 相反, 这种负面影响并没有在女性群体表现出来。
(二) 政治经济学领域
在政治经济学研究领域中, 由于政党选举通常需要得到一定的选票, 而获得多少选票可以当选是由法律规章制度预先设定的, 因此, 存在一个当选与不当选的选票临界值。断点回归便是利用了这一临界值附近的样本来考察选民对政策的影响、在职者的政治优势和政府的开支等等一系列问题。在美国众议院选举中, 一个政党如果能够获得所属选区50%以上的选票, 那么就能够赢得该选区的选举。Lee et al (2004) 利用了50%得票率是获选与否的关键决定因素这一特征考察了选民对竞选者政策选择的影响。现有理论中存在两种关于选举对政策影响的观点:第一种观点认为, 竞选者倾向于采取符合处于中位数选民偏好的政策, 即所谓的唐斯收敛效应 (Downsian Convergence Effect) ;第二种观点认为, 考虑到政治家的承诺在选举后并不能完全兑现, 选民倾向于选择当前最有利于他们权益的政策。Lee et al通过考察竞选者面临相近的选票时, 即选举的压力加大时, 是否会改变自己所提倡的政策, 其实证结果表明唐斯收敛效应并不存在。相反, 选民会在两党竞选者中选择出制定了对自己最有利政策的竞选者。在同样的背景下, Lee (2008) 也利用了必须获得50%以上选票当选这一个规则, 使用了断点回归方法研究了美国众议院当选者是否会利用本次当选所得到的权利, 从而有利于在下一届众议院选举中再次当选这个问题, 他发现众议院的当选者赢得下一次选举的概率更大。Albouy (2009) 以美国两党制为背景, 研究了国会 (包括参议院和众议院) 议员的党派身份对联邦政府在国会议员所属区域支出的影响, 由于一个党派在参议院和众议院获得超过50%选票便能够成为该院占多数的党派, 进而能够对议案的通过产生影响, 因此, 50%的选票便是一个临界值, 通过比较临界值附近的样本差异, 便可以得到获得国会多数席位的国会议员党派对联邦政府支出的影响, 他的研究结果表明, 在国会获得多数席位的议员党派往往能够为该党派议员所属州争取更多的政府支出, 并且对于不同的党派, 政府支出的表现形式还存在差异, 当共和党获得国会多数席位时, 其议员所属州将会得到更多的国防开支, 而当民主党获得国会多数席位时, 其议员所属州将会得到更多教育和城市发展方面的政府开支。Ferreira&Gyourko (2009) 同样使用断点回归的方法分析了政党选举对政治经济的影响。与之前研究不同的是, 他们使用的是美国城市的数据, 考察的对象是市长的选举, 其研究结果表明, 当选者仍然能够以较大概率赢得下一任的选举, 但是国会选举所表现出来的党派政治对政策和经济的显著影响这一结论并不适用于市长选举。党派政治对市政府的规模、公共品的支出和犯罪率并没有明显的影响, 他们认为这其中的原因在于城市之间较强的同质性和城市之间的竞争使得党派政治对政策和经济的影响有所削弱, 同时也使得竞选者的承诺更为可信。
(三) 环境经济学领域
在环境污染方面, 许多国家都颁布了相关的政策和法令来控制日益严重的环境问题, 这也提供了可以利用断点回归进行政策分析和研究的背景。Chay&Greenstone (2005) 使用了断点回归的方法研究了人们对避免空气污染的支付意愿, 美国政府于20世纪70年代颁布了清洁空气法案 (Clean Air Acts) , 即一个地区如果污染程度超过联邦政府所制定的临界值, 那么环保局会将该地区视为未达标地区, 从而使得该地区面临更为严格的监管。因此, 联邦政府为地区污染所制定的排放临界值便成为实证研究中的一个间断点, 通过比较超过排放临界值地区和未超过排放临界值地区的房价水平, 他们发现, 受到环保局更严格监管地区的悬浮颗粒总量会有所下降, 并且悬浮颗粒总量每下降1, 地区的房价便会提高0.4-0.5%。Davis (2008) 利用了墨西哥城于1989年实行的名为Hoy No Circula的项目, 即每周车辆将根据其牌照最后一位数字而被限行一天, 运用断点回归的方法研究了这一车辆限行政策对空气质量的影响, 他发现车辆限行政策并没有改善当地的空气质量, 相反, 车辆限行提高了未被限行车辆的使用率, 同时人们也转而使用高排放量的车辆。Greenstone&Gallagher (2008) 使用断点回归的方法研究了1980年美国国会通过的并由卡特总统签署的综合环境反应、赔偿和责任法案 (Comprehensive Environmental Response, Compensation, and Liability Act, CERCLA) 所产生的经济价值, CER-CLA要求环保局对污染物质排放超标或对公共健康和环境构成威胁的地区实行环境清洁计划的权利, 因此, 污染物质排放水平便成为关键变量, 它决定着一个地区是否实行了环境清洁计划。通过比较实行环境清洁计划地区和未实行环境清洁计划地区的房价和房屋租金, 他们发现如果一个地区实行了环境清洁计划, 那么20年后, 该地区的房屋财产价值将会增加4200万美元, 并且居住人口也会显著增加。Almond et al (2009) 研究了中国使用暖气的政策对地方环境污染的影响, 在1950-1980年间, 由于财政不足以令全国地方政府提供免费煤炭以暖气供暖, 但当时只有淮河和秦岭以北的地区能够得到免费的煤炭供暖, 这项政策的实施使得以淮河和秦岭为界的南北地区空气污染程度产生了显著的差别, 他们使用断点回归的方法对这一问题进行了细致的研究, 其研究结果表明淮河和秦岭以北的地区空气中悬浮颗粒总量明显高于淮河和秦岭以南的地区, 并且北方悬浮颗粒总量的指标是美国的5-8倍。
(四) 发展经济学领域
断点回归在发展经济学领域中的应用主要利用了各个地区行政区域划分的特点。Dell (2008) 利用断点回归的方法研究了历史制度对区域经济影响的持久性, 并考察了历史制度影响当前经济绩效的渠道。玻利维亚和秘鲁的执政者在16世纪西班牙殖民地时期, 均在波托西 (Potosi) 银矿和万卡维利卡 (Huancavelica) 水银矿地区实行了名为Mita的征收劳工制度, 即执政者要求征用各个地区男性人口的七分之一用于开采银矿和水银矿, 如果一个地区与矿产的距离较远, 那么来回运输和监督成本就会很高, 因此, 出于对经济利益的考虑, 一个地区是否实行了Mita制度在很大程度上取决于该地区与矿产距离的远近, 通过比较Mita制度实行区域与未实行区域之间临界线两侧的样本, Dell发现Mita制度的实施减少了当前地区消费的32%, 并且Mita制度主要通过影响产权界定和公共物品的提供两个渠道影响了当前的地区经济绩效。余静文和赵大利 (2010) 、余静文和王春超 (2010) 也利用了城市圈形成依赖于中心城市的辐射涓滴作用这一特性。如果一个地区距离中心城市较远, 那么通过产业对接、产业互补和资源的重新配置发挥中心城市带动周边地区经济发展的辐射效应就会有所减弱, 因此城市圈的划分与一个地区距离中心城市的远近相关, 通过比较城市圈临界线两侧的样本, 可以得到城市圈形成对地区经济绩效的影响。余静文和赵大利以京津冀、长三角和珠三角城市圈为例, 使用了断点回归方法和分位数回归方法研究了城市圈区域经济的收入差距问题, 他们发现, 城市圈的形成所产生的集聚效应、辐射效应和政府治理改变的综合影响在不同阶段表现出不同的形式, 城市圈地区收入差距也没有呈现出一致的趋势;余静文和王春超利用武汉城市圈和长株潭城市圈的数据, 使用断点回归的方法考察了城市圈形成对城市圈区域经济绩效的影响, 他们发现城市圈形成产生的辐射效应和政府治理结构转变所带来的效应之和大于中心城市产生的“以大吞小”效应, 从而促进了城市圈区域的经济发展。
四:简 评
长期以来, 断点回归作为最接近于随机实验的方法被经济学家所忽视, 直到20世纪90年代, 该方法才开始被应用到经济学分析之中。本文从断点回归的理论、发展历史、实证步骤和其在经济学中的应用几个方面介绍了断点回归这一新“拟随机实验”的兴起和最新发展。对于中国这样一个既处于转型又处于高速发展阶段的大国, 政策和规则的改变往往提供了一个实施断点回归的绝佳背景, 但是使用断点回归来研究和分析中国政策因素所产生影响的文献还十分缺乏, 本文的目的在于向国内经济学界介绍这一新的实证方法, 普及其在中国经济问题研究中的应用。虽然断点回归在政策评估和因果推断方面有着很大的优势, 但是在运用过程中需要注意以下几点:第一, 如果个体能够精确地操作决定处置的关键变量, 那么断点回归方法便是无效的;第二, 即使个体能够对决定处置效应的关键变量产生影响, 但只要这种影响不足以使得个体能够精确地操控它, 那么在临界值处的处置效应依然会如同随机试验一般, 呈现出随机的形式, 此时, 便可利用模糊型断点回归方法进行研究;第三, 断点回归方法可以像随机实验一样来分析和检测, 比如, 在处置实施之前, 可以检验被解释变量是否呈现出系统性的变化;第四, 在实施断点回归的实证研究中, 参数估计依然具有很好的性质, 与其将此非参数估计看成是参数估计的替代, 还不如将其看成是参数估计的一个补充。
摘要:断点回归设计是最接近于随机试验的拟随机实验方法,具有因果推断清晰、结果最为可信、易于检验的特点。文章从断点回归设计的基本逻辑、方法、应用和研究进展等几个方面介绍了这一方法。
在过去二十多年来,社会科学领域中,通过严格的统计方法来进行因果推论受到越来越多的关注。随机实验方法是因果推论实证最优选择,这是学界已经达成的共识。但在社会科学研究中,随机实验方法的应用极为有限,并且随机实验的时间成本和经济成本都比较高,在随机实验不可得的情况下,一种近似于随机实验方法,即拟随机实验方法,受到更多的重视和研究。拟随机实验方法是以统计控制模拟实验控制,从而检验因果假设。断点回归设计就是仅次于随机实验的一种拟随机方法。Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。随着越来越多的研究开始关注断点回归设计,这一拟随机实验统计方法有着极为广阔的应用前景,但在国内研究中鲜见该方法,基于此,本文将介绍断点回归设计基本逻辑、方法与应用,并探讨其最新发展趋势。
1848年J. S.密尔从方法论的角度上总结了因果归纳的逻辑,提出求同法和求异法。求同法是指一个群体中所有人都在两个变量上取值相同,而在其他变量上取值不同,那么这两个变量之间就有因果关系。求异法是指两个个体在因变量上的取值不同,存在某个自变量取值不同,而其他自变量上的取值相同,则那个取值不同的自变量和因变量之间存在着因果关系。Holland (1986)通过总结自然科学、社会科学的大量研究和讨论,提出科学的解决方案和统计的解决方案两种解决因果问题的方案,利学的解决方案主要包括重复实验和随机实验,研究者通过重复实验和随机分组实验来操纵和控制,进而研究二者之间的关系。断点回归的主要思想,控制研究的样本近似于随机分布在临界值附近,小于临界值的样本作为控制组,大于临界值的样本作为实验组,通过比较它们的差别来研究干预变量和结果变量之间的因果联系。1935年,统计学家Fisher通过对偶然因素的作用控制,完善了随机化实验设计,他将试验对象随机分配到控制组和实验组,由于个体的各种不可控差异,根据大数定理,在随机分配过程中被平均了,平均而言,两组实验对象可视作是同质总体。统计学对因果关系表述为:在相等条件下,X变化导致Y平均值的变化。Fisher随机实验设计的伟大贡献在于把这种机能联系和类似于硬币的随机翻转相连起来,以保证我们想要切断的联系确实被切断,因为我们可以假定这个随机硬币是不受任何我们可以测量到的因素所影响。Rubin(1984)通过仔细分析实验条件下的因果推论问题,认为这是一个反事实的问题。在统计学理论中,反事实指在相反情境下的某种状态。以新药物实验为例,一群病人在一个实验中被分到实验组接受新药物治疗。这一群病人接受治疗后效果是我们能够观察到的“事实”。而“反事实”则是指“假设”这同一群病人是被分到对照组,而不是实验组,即没有接受新药物治疗,那么他们的症状又如何。在统计学意义上,新药对于症状的因果性效果就是指这同一实验对象在实验组时和在对照组时的之间的差异。换句话说,统计学上的因果关系可以表述为可观察到的“事实”与其“反事实”之间的差异。在研究的非实验数据中,对实验组来说,研究者无法观测其在未接受实验时的表现;而对于控制组来说,研究者也无法预测其在接受实验时的表现。我们可以将实验定义为二分变量D,接受实验时,D=1,结果变量为Y1;未接受实验时,D=0,结果变量为YO。根据反事实框架,因果关系可以表述为: T=p*(E(Y1ID=1)一E(Y0ID =1 ))+(1-p)* (E(Y1ID=0)一E(Y0ID =0))其中,T表示因果关系,p表示研究对象接受实验的概率,E(Y1ID = 1),E(Y0ID =0)表示可观测的“事实”,而E(Y0ID =1 ),E(Y1ID = 0 )表示不可观测的“事实”,也即反事实。在实际研究中,反事实是永远观察不到的,一个实验对象,要么在实验组,要么在对照组,只能二者选其一,不能同时出现在两个研究组中,Holland (1986)称之为“因果推论的基本问题”。为了简化因果推论公式,在统计学中做出了非混淆假设,即: E(Y1I D=1)=E(Y1 I D = 0)以及E(Y0ID = 0)= E(Y0ID=1) 非混淆假设要求研究对象是随机地分配到实验组和对照组,即二分量D本身和最后的实验结果Y1,Y0没有关系,换句话说,Y1,Y0独立于D。传统方法中个体异质性和混杂因素的问题,在断点回归设计中都得到很好地解决。通过统计控制,使得非实验的调查数据尽可能地随机分布在临界值附近,同时,满足非混淆假设,就是要求结果变量独立于干预变量。断点回归最早是由美国西北大学心理学家Campbell在1958年设计出来的。Thistlethwaite& Campbell在1960年正式发表关于断点回归分析的文章,并提出在非实验条件下断点回归是处理处置效应的一种有效办法。此后也有很多学者对该方法进行研究和发展,1984年,Trochim综合前人对断点回归的理论和方法,将断点回归分为两类:一类是确定型的(Sharp RD)(如图1(a)),即个体在临界值X一边接受处置效应的概率为1,另一边则为0;一类是模糊型的(Fussy RD(如图1(b)),即在临界值X附近,接受处理效应的概率是单调变化的。Hahn等(2001)从模型识别和模型估计上对断点回归进行了严格意义上的理论证明。断点回归的主要原理是:存在一个变量,如果该变量大于这个临界值时,接受处置效应,小于临界值时,不接受处置效应,可以视作是对照组。在确定型断点回归中,临界值是确定的,一边是完全接受处置效应,另外一边是完全不接受处置,而在模糊型断点回归中,临界值附近的观测值接受处置效应概率是单调随机的。断点回归被视为仅次于随机实验,能够有效利用现实约束条件分析变量之间的因果关系的实证方法,因而得到广泛的运用,特别是在教育学、政治学、经济学以及一些政策效应评估上。Angrist & Lavy(1999)利用以色列教育制度,用断点回归方法来研究班级大小对学生成绩的影响,在它们的制度中,班级大小必须小于等于40人,超过40人则必须分为两个班,通过研究发现班级人数越少,其班级成绩越好。Lee等(2004)利用50%的得票率是获选的关键决定因素来研究选举对政策的影响,结果发现选民会选择制定了对自己最有利政策的竟选者。Lee(2008)在同样的背景下,研究美国众议院当选者会不会利用本次当选所得到的权利来影响下次再次当选,通过断点回归结果表明众议院的当选者在下一届选举中获胜的可能性要大些。Cunat( 2012)通过分析市场对企业公司治理年度会议中决策的通过与否的反应对股东价值的影响,发现政策建议的通过会给股东带来正向回报。在国内学者研究中,相关实证文献较为缺乏。雷晓燕等(2010)利用政府对退休年龄的规定,男性65周岁,女性60岁退休,来研究退休对健康的影响,结果发现正常退休对男性健康有显著的负面影响,对女性健康影响不大。曹静等(2014)运用断点回归方法,对2008年北京奥运会后采取的限行政策对空气质量的影响进行评估,发现限行政策尤其是“尾号限行”对空气质量的影响甚微。
断点回归是拟随机实验方法中揭示因果效应最有效的一种方法,可以视作是一种特殊的倾向值匹配,它不需要对多个混淆变量控制,而是考虑一个个体是否接受某个自变量的影响,不用考虑太过复杂。但断点回归方法也存在着局限性: (1)在使用断点回归时,如果其他协变量也存在着“中断”的情况,则不清楚是由于其他变量还是我们所关心的强制变量所导致的。 (2)非混淆假设条件严格。断点回归方法假设研究对象是同质的或近似同质的,即被放置对照的个体若放在实验组与放置在实验组的个体产生的效应是一样的,但在实际中很难保证,如若产生异质性反应,则估计结果是有偏的。 (3)断点回归衡量的是在临界值附近的局部平均效应,不是一个整体的平均效应,很难推广到整体研究中。 研究进展:(1)在进行局部线性回归时,选择一个合适的带宽使得估计量无偏且具有效率仍在研究中,Imhens& Lemieux(2007)认为在局部线性回归时矩形核估计最合适,lee(2008)认为核估计在局部线性回归中存在者偏误,夸大平均因果效应。Imbens &Kalyanaraman(2012)认为最优带宽选择是一个开放性的问题。因而最优带宽选择还有待进一步研究。(2)在模糊断点回归中,强制变量对Di的影响不是决定性的,而是随机的,即在临界值左侧也存在进人到实验组的个体,此时Di是一个内生变量,可以采用断点回归的工具变量法解决,Angrist( 2009 )认为模糊断点回归就是一个工具变量。因而可以采用工具变量的一些衡量估计量的方法来衡量。(3)Papay等(2011)将单个分配变量扩展到多个分配变量的断点回归模型,Reardon &Robinson(2012)根据教育政策的特点,提出了多评分维度的断点回归模型(multiple rating score regression disconti-nuity , MRSRD),并讨论了多评分维度断点回归五种模型。along等(2013具体介绍了多元断点回归模型}multi-variate regression-discontinuity design , MRDD),并针对出现两个分配变量时,提出边界方法、中心方法,单变量方法和工具变量法四种方法来估计干预效应。
断点回归设计是最接近于随机实验的方法的拟随机实验方法,在微观政策评价方面进行因果推断具有较大的优势,因果推论清晰且易于检验。本文从断点回归设计的基本逻辑、方法、应用和研究进展等几个方面介绍该方法。对于中国这样一个处于转型和发展的国家,政策和规则的改变给实施断点回归设计提供了绝佳背景,这也是本文的着眼点。同时,在使用过程中还应当注意断点回归设计的假设条件和适用条件,避免一味选择该方法造成评价不当。
作者
谢谦、薛仙玲、付明卫,2019,“断点回归设计方法应用的研究综述”
摘 要:近年来, 国内经济学界颇为关注断点回归设计 (RDD) 方法, 运用RDD的文章日益增多。首先概述Lee和Lemieux (2010) 提出的运用RDD的规范, 然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文, 归纳出运用RDD的三个新动作:新的最优带宽确定方法、甜甜圈RDD和参数估计中最高只能使用二次多项式。以国外的RDD用法为参照, 我们发现, 国内熟悉Lee和Lemieux (2010) 提出的规范, 也在吸收国外文献中出现的新动作, 但运用RDD时存在如下几个突出问题:不做适用性检验、不重视描述统计图和不交代清楚非参数估计的关键细节。建议国内运用RDD时需要增加如下动作:非参数估计应该同时尝试CV、IK和CCT三种带宽确定方法;在配置变量存在堆积现象或被操纵的可能时, 使用甜甜圈RDD;尝试到四次 多项式。 关键词:断点回归设计; 参数估计; 非参数估计; 最优带宽; 甜甜圈RDD
20世纪80年代以来, 应用微观计量研究经历了一场可信性革命, 变得十分强调研究设计 (research design) 。这种转变导致工具变量法 (Instrumental Variable, IV) 、双重差分法 (Difference-in-Difference, DID) 和断点回归设计 (Regression Discontinuity Design, RDD) 成为应用微观计量研究中运用最广泛的方法[1]。与工具变量法和双重差分法相比, RDD更接近于随机试验, 因而从理论上讲是更好的因果识别方法[2]。RDD虽然早在1960年就已被Thistlethwaite和Campbell(1960) [3]提出, 但20世纪90年代末之后才被国外大量应用于经济学研究。尽管运用RDD要求在断点附近有较多观测值, 对数据要求很高, 但过去几年的相关研究并不少。2011-2017年, 五大英文顶级经济学期刊1发表的运用RDD做的经验研究论文 (下文简称“五大RDD论文”) 共39篇2, 各年分别为6篇、3篇、3篇、11篇、5篇、7篇和4篇 (如图1所示) , 表明RDD在国际上已经成为一种主流的经验研究方法。根据在中国知网的检索, 中文期刊发表的头两篇运用RDD做的经验研究论文是“退休会影响健康吗?”[4]和“城市群落的崛起、经济绩效与区域收入差距”[5];2011-2017年间, 中文CSSCI期刊共发表运用RDD做的经验研究论文46篇, 各年分别为1篇、1篇、0篇、5篇、8篇、8篇和23篇 (如图1所示) 。我们预计, 大数据时代的来临会极大地打破运用RDD面临的数据限制3, 运用RDD的相关研究会越来越多。Imbens和Lemieux (2008) [6]、van der Klaauw (2008) [7]、Lee和Lemieux(2010) [2]、Skovron和Titiunik (2017) [8]、Hausman和Repson(2018) [9]专门综述了RDD的理论和应用研究。余静文和王春超 (2011) [10]简要介绍了断点回归设计的发展历史、理论、实施步骤和应用情况。但是, 由于RDD这种方法的理论研究仍很活跃, 运用RDD涉及参数估计和非参数估计的选择、参数估计中多项式次数的选择和非参数估计最优带宽的确定等众多技术细节, 文献中在RDD的具体用法上存在很大差别, 特别是中文文献运用RDD的规范程度明显滞后于外文文献, 有时还存在误用。因此, 十分有必要归纳RDD应用的新进展, 为国内学者规范运用RDD提供借鉴。由于本文强调被五大RDD论文运用过的新进展, 侧重于应用, 我们不会涉及多配置变量RDD (RD designswith assignment variables) [11]、分位数RDD [12]、拐点回归设计 (regression kink designs) [13]、多断点RDD (RD designs withmultiple cutoffs) [14]、远离断点处的处理效应的识别方法 (methods for extrapolation awayfrom the cutoff) [15][16]、离散型配置变量RDD[17]等五大RDD论文中未运用的新进展。本文综述Lee和Lemieux(2010) [2]以来RDD的新进展。选择以Lee和Lemieux(2010) [2]为基点的理由如下:首先, 与Imbens和Lemieux(2008) [6]、van der Klaauw (2008) [7]相比, Lee和Lemieux (2010) [2]的时间要晚。其次, 与Skovron和Titiunik (2017) [8]综述政治学中断点回归设计的应用情况、Hausman和Repson(2018) [9]综述时间作为配置变量 (也叫驱动变量) 的RDD应用情况相比, Lee和Lemieux (2010) [2]综述的是经济学中的应用情况, 包括各种类型的配置变量, 更综合、更全面。Lee和Lemieux(2010) [2]提出了运用RDD做经验研究的规范, 算是一个共识。但是, 通过归纳2011-2017年的五大RDD论文, 我们发现:一方面很多论文都没有遵守此规范。另一方面涌现出了很多被广泛应用的新进展, 譬如非参数估计中确定带宽的IK法5[18]和CCT法[19]、参数估计中只应使用配置变量的低次项和甜甜圈RDD (Donut hole RDD) 等6。通过归纳2011-2017年CSSCI期刊发表的RDD经验研究论文, 我们发现, 国内总体上了解运用RDD的规范, 但仍然存在不少问题, 譬如不做适用性检验、不重视描述统计图、不交代清楚非参数估计的关键细节等。Lee和Lemieux(2010) [2]提出了运用RDD做经验研究的规范, 概述如下:1.利用配置变量检验RDD的适用性。
2.利用前定变量检验RDD的适用性。
首先, 选定一定数量的箱体, 求前定变量在每个箱体内的均值, 画出均值对箱体中间点的散点图;接着再画出使用多项式模型对前定变量做出的拟合曲线, 其中多项式一般是4次多项式7。如果前定变量的均值在断点处存在跳跃, 则意味着前提条件很可能不成立。其次, 用前定变量对常数项、处理变量、配置变量的多项式、处理变量和配置变量多项式的交互项做回归。如果前定变量比较多, 那么随机因素也可能导致某个前定变量存在显著的断点。因此, 有必要把众多检验合并为一个检验所有前定变量都不存在断点的统计量。这时, 应该用似不相关回归 (Seemingly Unrelated Regression, SUR) 。3.画结果变量的图。
选定一定数量的箱体, 求结果变量在每个箱体内的均值, 画出均值对箱体中间点的散点图;接着再画出使用多项式模型对结果变量做出的拟合曲线, 其中多项式一般是4次多项式。一定要求了局部平均值后再画图。如果直接画原始数据的散点图, 那么噪音太大, 看不出潜在函数的形状。如果结果变量的均值在断点处存在跳跃, 则意味着处理变量有影响。用图来显示结果变量和配置变量之间的关系, 已经成为运用RDD的标准作法。Lee和Lemieux(2010) [2]指出, 画图在RDD经验文章中是如此重要, 以致没有图的文章会让人自然而然地怀疑图形证据对文章不利。4.全样本参数估计。
使用全样本数据进行参数估计。以精确断点回归为例, 估计模型如下:其中y、x、treatment和W分别为结果变量、配置变量、处理变量 (当x≥c时, treatment=1, 否则treatment=0) 和前定变量。α、ρ、β和γ为待估计的参数, ε为随机扰动项。ρ显著不为0, 表明处理对结果变量有影响。参数估计的要点是确定模型 (1) 中的多项式次数K。一般从一次尝试到八九次8, 然后挑选赤池信息准则 (AIC) 取值最小的模型。另外一个比赤池信息准则更好的方法是, 在多项式模型的自变量中先加入表示箱体的虚拟变量, 然后不断加入配置变量的多次项, 只到下述原假设成立:所有箱体虚拟变量的系数均等于零。5.子样本非参数估计。
非参数估计就是对最优带宽内的子样本做加权局部线性回归。非参数估计的要点是确定最优带宽。确定最优带宽的方法有两种9:拇指规则法 (rule of thumb, ROT) 和交叉验证法 (cross validationprocedure, CV) 。加权可用矩形核密度函数、三角形核密度函数等。其中, 使用矩形核密度函数加权的非参数估计, 等于是基于子样本的参数估计。使用三角形核密度函数与使用矩形核密度函数的唯一区别是, 前者给临近断点的观测值更大的权重。但是, 要想给临近断点的观测值更大的权重, 更透明的做法是在更小的带宽内使用矩形核密度函数。使用矩形核密度函数得到的结果也更易解释。值得庆幸的是, 实践中不同核密度函数得到的结果一般是一致的。具体研究中, 参数估计和非参数估计都要做, 在两种方法下都稳定的结果更可信。Lee和Lemieux(2010) [2]之后的7年里 (2011-2017年) , 学者在运用RDD时出现了不少Lee和Lemieux (2010) [2]未提及的新做法, 譬如非参数估计中确定带宽的IK法和CCT法、甜甜圈RDD (Donut holeRDD) 、参数估计中只应使用配置变量的低次项和利用配置变量做适用性检验的Frandsen法[21]等。此处归纳比较重要的三种新做法如下:1. 非参数估计中最优带宽的确定。
Lee和Lemieux(2010) [2]介绍了ROT和CV两种确定最优带宽的方法。但是, 2011-2017年间五大RDD论文使用得多的是IK法和CCT法。stata中用非参数法做断点回归估计时的命令rd, 就是用IK法确定最优带宽, 而命令rdrobust提供CV、IK、CCT三种不同的最优带宽计算方法选项。Imbens和Kalyanaraman(2012) [18]指出, ROT和CV两种方法对于在整个支撑集 (support set) 里估计回归方程而言是最优的, 但RDD只关心断点处的回归方程估计, 故ROT和CV对于RDD而言不是最优的, 而IK法对于RDD而言是渐近最优的;另外, CV法需要研究人员自己设定一个调节参数 (tuning parameter), 而IK法是完全数据驱动的。Imbens和Kalyanaraman(2012) [18]进一步指出, 尽管IK法具备这些优点, 但研究人员不能只看这一个最优带宽下的估计结果, 而应把这一带宽作为基准、检验结果对不同带宽的稳健性。Calonico、Cattaneo和Titiunik(2014) [19]认为, ROT、CV和IK这些方法得出的最优带宽过大, 导致相应的置信区间有偏, 会过度拒绝“没有处理效应”的原假设, 结果把“没有”处理效应说成“有”。CCT法校正了过大带宽带来的偏误。2. 甜甜圈RDD (Donut holeRDD) 。
甜甜圈RDD用来克服数据堆积 (heaping) 问题对估计结果的影响10。数据堆积指取配置变量某些值的观测值过多的现象。导致这一现象的原因包括受访者自报告某些信息时倾向于向某个数值近似, 测量标尺的精读有限等。譬如, 调查数据中受访者自报告的身高在160cm、170cm和180cm等取值上堆积, 新生儿体重会在3000克、3500克和4000克等取值上堆积。数据操纵现象源自经济个体的逐利动机, 只出现在断点处。然而, 数据堆积不是源自经济个体的逐利动机, 且可能出现在除断点之外的其他地方。如果结果变量受配置变量的堆积现象影响, 那么RDD估计量可能是有偏的[22]。此时, 可以去掉断点附近的某些观测值再做RDD估计。由于去掉断点附近的某些观测值后的数据就像一个“甜甜圈”, 故称作“甜甜圈RDD”。至于去掉断点附近多少观测值为适, 文献中尚未达成共识。3. 全样本参数估计的缺点。
根据Lee和Lemieux(2010) [2], 配置变量多项式要尝试到八九次。但是, Gelman和Imbens (2014) [23]认为, 不能尝试配置变量多项式的高次项, 只能使用局部一次或局部二次多项式, 理由有三点:第一, 断点回归设计的估计量可以写成处理组结果的加权平均值和控制组结果的加权平均值之差, 其中加权权重是配置变量的函数。运用全域高阶多项式方法时, 当配置变量取值较大时, 使用不同次数多项式得到的权重差别巨大。然而, 局部线性回归方法给临近断点处的观测值赋予要大的权重, 理论上讲更合理。第二, 处理效应的估计值对全域高阶多项式的次数十分敏感。使用不同次数多项式得到的估计值差别很大。第三, 在本身不存在断点的情况下, 全域多项式方法得到错误结果 (认为有断点) 的概率高于实际水平, 而局部一次 (或二次) 多项式方法得到错误结果的概率和实际水平差不多。2011-2017年, 五大英文顶级经济学期刊共发表39篇运用RDD做的经验研究论文, 涉及公共经济学、新政治经济学、劳动经济学和教育经济学等众多领域。39篇论文中有33篇使用行政管理数据11, 由此可见开放行政管理数据对于RDD应用的重要性。第二部分提到的三个新进展的应用情况如下:首先, 使用非参数估计的26篇论文中, 用IK法、CCT法确定最优带宽的分别为13篇、6篇, 表明这两种最优带宽确定方法已被学界接受;其次, 在甜甜圈RDD被提出的2011年之后, 33篇论文中有5篇用了此方法;最后, Dell (2015) [24]和Pinotti (2017) [25]引用了Gelman和Imbens (2014) [23], 但还使用超过二次的配置变量多项式做稳健性检验。这些文献对RDD的运用与Lee和Lemieux(2010) [2]提出的规范大体一致, 譬如20篇 (占51.28%) 论文引用了Lee和Lemieux(2010) [2], 33篇 (占84.62%) 做了适用性检验。与Lee和Lemieux(2010) [2]提出的规范不一致的情况, 包括如下几点:第一, Lee和Lemieux(2010) [2]建议参数估计和非参数估计均要做12, 但这样做的只有16篇。只使用参数估计、只使用非参数估计的分别为13篇和10篇。在16篇同时使用了两种估计方法的文章中, 将两种方法视为同等重要的有4篇, 参数估计仅只是做稳健性检验、非参数仅只是做稳健性检验的分别为4篇和8篇。因此, 总体来看, 文献中偏重于参数估计。值得一提的是, ECMA上的4篇文章都只用非参数估计, 而QJE上的5篇文章, 除Malamud和Pop-Eleches(2011) [26]同时使用了两种方法外, 其余4篇都只用参数估计。ECMA由国际计量经济学会主办, QJE由哈佛大学经济系主办。二者在RDD应用上的差异可能体现了两个主办方不同的学术风格。第二, Lee和Lemieux(2010) [2]建议用前定变量做适用性检验时, 应该做似不相关检验, 但没有一篇文献这样做。第三, Lee和Lemieux(2010) [2]建议画描述统计图中的拟合曲线时, 用配置变量的4次多项式, 但仅有3篇论文用了4次多项式。39篇论文中, 仅有Chetty et al (2014) [27]这一篇没在描述统计图中画上对散点的拟合曲线。在画了的38篇中, 未说明用的什么方法、使用局部线性回归 (local linearregression) 、使用局部线性平滑 (local linearsmoother) 、移动平均法 (running-meansmoothing) 和多项式方法的分别为3篇、3篇、3篇、1篇和28篇, 可见多项式方法是主流方法。在画拟合曲线所用方法上的差异具有明显的期刊特色:使用局部线性回归法的3篇文章有1篇来自QJE、2篇来自JPE, 使用局部线性平滑法的3篇文章均来自ECMA, 使用移动平均法的一篇文章来自RES, AER上的文章都使用多项式方法。在使用多项式方法的28篇论文中, 使用1次、2次、3次、4次、8次及同时使用1次和2次多项式的分别为8篇、11篇、4篇、3篇、1篇和1篇, 使用1次多项式和2次多项式的明显居多。值得一提的是, Meng (2017) [28]在同一张图中同时画了1次多项式和2次多项式的拟合曲线。第四, Lee和Lemieux(2010) [2]建议参数估计时的配置变量多项式要尝试到八九次, 然后挑选赤池信息准则 (AIC) 取值最小的模型。但是, 使用过参数估计的29篇论文中, 仅有Clark和Martorell(2014) [29]和Deshpande (2016)[30]根据AIC来挑选模型。在明确说明尝试过的多项式次数的论文中, 仅有Auffhammer和Kellogg(2011) [31]、Pinotti (2017) [25]尝试过超过4次的多项式, 绝大多数只尝试到4次多项式。第五, Lee和Lemieux(2010) [2]建议非参数估计时用矩形核密度函数。但是, 在使用非参数估计且说明了所用核密度函数的16篇文献中, 使用矩形核密度函数的为7篇, 而使用三角形核密度函数的有8篇, 还有一篇使用帐篷型核密度函数 (tent-shaped edgekernel) 。综上所述, Lee和Lemieux(2010) [2]之后, 运用RDD出现了IK和CCT两种最优带宽确定方法以及甜甜圈RDD两个新操作环节。Gelman和Imbens (2014) [23]不该使用超过两次的多项式的建议, 尚未被学界普遍接受。同时, 学界在Lee和Lemieux(2010) [2]涉及的RDD运用环节上未达成共识。Lee和Lemieux(2010) [2]发表在权威经济学期刊《Journal of Economic Literature》上, 其两位作者均是国际上知名的经济学者。他们提出的RDD应用规范未被学界完全接受, 并不因为他们的观点不准确、不权威, 而是因为RDD的理论研究仍很活跃, 故应用上达成的共识不多;因为RDD应用涉及众多技术环节, 故更难达成共识。作为一个对比, IV和DID的理论研究相对成熟、应用涉及的技术环节单一13, 学者运用这两种方法做研究时的动作比较一致。2011-2017年间, CSSCI期刊共发表RDD经验研究论文46篇, 涉及公共经济学、环境经济学、财政学等众多领域, 其中使用行政管理数据的仅有王骏和孙志军 (2015) [32]一篇。总体而言, 对于两篇权威的RDD综述文章——Imbens和Lemieux(2008) [6]、Lee和Lemieux(2010) [2], 至少引用过其中一篇的中文论文有32篇, 占69.57%, 这意味着国内学者总体上了解运用RDD涉及的众多技术环节。RDD应用的新进展也在被国内文献吸收。首先, 确定最优带宽的IK法已被广泛应用, CCT法也开始被使用。使用非参数估计且说明了带宽确定方法的24篇文章中, 使用了IK法、CCT法的分别有10篇、3篇。其次, 李宏彬等 (2014) [33]、张川川等 (2015) [34]和张明 (2017) [35]都使用了甜甜圈RDD。最后, 马光荣等 (2016) [36]、何文剑 (2016) [37]、李江一和李涵 (2017) [38]以及王家庭等 (2017) [39]共4篇文章引用了Gelman和Imbens (2014) [22]。与国外文献一样, 国内文献运用RDD也存在很多与Lee和Lemieux(2010) [2]规范不一致的情况, 具体如下:首先, 同时使用参数估计和非参数估计的只有18篇 (占39.13%) 。只使用参数估计、只使用非参数估计的分别为17篇和11篇。在18篇同时使用了两种估计方法的文章中, 将两种方法视为同等重要的有3篇, 参数估计仅只是做稳健性检验、非参数仅只是做稳健性检验的分别为2篇和13篇。因此, 总体来看, 国内文献与国外文献一样, 偏重于参数估计。其次, 用前定变量做适用性检验时, 仅有曹静等 (2014) [40]、王骏和孙志军 (2015) [32]使用了似不相关回归。再次, 使用了参数估计的35篇文章中, 只有杨小聪 (2017) [41]、张英和陈绍志 (2015) [42]、曹静等 (2014) [40]3篇文章尝试到配置变量八九次的多项式。最后, 在使用非参数估计且说明了所用核密度函数的11篇文章中, 只使用矩形核密度函数、同时使用矩形和三角形核密度函数以及只使用三角形核密度函数的分别为2篇、5篇和4篇。由于运用RDD涉及众多技术环节, 国内对RDD的运用还存在不少问题, 主要表现在以下几个方面:首先, 5篇文章未做适用性检验, 2篇文章在适用性检验未通过时依然使用RDD。张明 (2017) [34]既没有用配置变量也没有用前定变量做适用性检验。陈强等 (2017) [43]、黄新飞和杨丹 (2017) [44]、高彦彦和王逸飞 (2017) [45]以及王旭光 (2017) [46]使用的配置变量不可能被操控, 无须检验, 但他们都没有检验前定变量的连续性。邹红和喻开志 (2015) [47]、邓婷鹤和何秀荣 (2016) [48]使用的配置变量“年龄”均在断点 (60岁) 处不连续, 但依然运用RDD。邹红和喻开志 (2015) [47]做回归分析时去掉了60岁断点上的样本, 但是出于男性实际停止工作的时间普遍是61岁这个考虑, 并没有从RDD适用性这个角度深化、细化研究内容, 譬如检验样本是否在50岁、60岁、70岁等年龄上存在堆积问题。其次, 对描述统计图的运用不规范。如前所述, 画图在RDD应用研究中十分必需。然而, 有11篇没有画描述统计图。根据Lee和Lemieux(2010) [2]和英文顶级期刊的实际, 画拟合曲线图以多项式方法居多。然而, 在画有描述统计图的35篇文章中, 15篇没有说明拟合曲线图所采用的方法, 14篇采用局部多项式方法, 6篇采用了平滑、多元回归等其他方法。未画描述统计图和未说明画拟合曲线所采用方法的文章合计达26篇 (占56.52%) , 表明国内学界对画图重要性的认识不够。最后, 使用非参数估计时的关键技术细节未说明。在29篇使用了非参数估计的文章中, 5篇没有报告带宽的确定方法, 18篇 (占62.07%) 未说明使用了哪个核密度函数。RDD在断点附近的局部等价于一个随机试验, 这一特点使得其备受经验研究人员的青睐。在国外, RDD从20世纪90年代末期开始被大量应用于经济学研究。Lee和Lemieux(2010) [2]提出了运用RDD的必备技术环节, 相当于给出了RDD应用的规范。但是, 由于RDD的理论研究仍在不断深入, 至今尚未定型, Lee和Lemieux(2010) [2]之后应用RDD的文献出现了新的技术环节, 譬如新的最优带宽确定方法、甜甜圈RDD和参数估计中最高只能使用二次多项式等。国内运用RDD做研究始于2010年, 最近两年大幅增加。虽然国内熟悉Lee和Lemieux(2010) [2]提出的规范, 但运用RDD时存在不少问题, 譬如不做适用性检验、不重视描述统计图、不交代清楚非参数估计的关键细节等。为了使得研究结论更稳健, 基于五大英文顶级期刊发表的论文, 我们建议, 国内运用RDD时, 在完成Lee和Lemieux(2010) [2]提出的技术动作后, 需要增加如下动作:考虑到学术界在最优带宽确定方法上尚未达成共识[26][49], 非参数估计时应该同时尝试CV、IK和CCT三种方法;在配置变量存在堆积现象或被操纵的可能时, 使用甜甜圈RDD。尝试到四次多项式。RDD从理论上讲是更好的因果识别方法, 但运用此方法要求在断点附近有较多观测值、对数据要求很高。可喜的是, 最近几年, 我国经济社会的数字化进程加速, 越来越多的经济活动开始数据化, 越来越多的中央政府部门和地方政府公开了行政管理数据, 为运用RDD做研究提供了契机。特别值得指出的是, 运用医疗卫生行业行政管理数据的研究已经成批量涌现。[1]Angrist J D, Pischke J. The credibility revolution in empiricaleconomics: How better research design is taking the con out of econometrics[J].Journal of Economic Perspectives, 2010, 24 (2) : 3-30.
[2]Lee D S, Lemieux T. Regression discontinuity designs in economics[J].Journal of Economic Literature, 2010, 48 (2) : 281-355.
[3]Thistlethwaite D L, Campbell D T. Regression-discontinuity analysis:An alternative to the ex post facto experiment[J]. Journal of EducationalPsychology, 1960, 51 (6) :309-317.
[4]雷晓燕, 谭力, 赵耀辉.退休会影响健康吗?[J].经济学 (季刊) , 2010, (04):1539-1558.
[5]余静文, 赵大利.城市群落的崛起、经济绩效与区域收入差距——基于京津冀、长三角和珠三角城市圈的分析[J].中南财经政法大学学报, 2010, (04):15-20, 142.
[6]Imbens G W, Lemieux T. Regression discontinuity designs: A guide topractice[J]. Journal of Econometrics, 2008, 142 (2) : 615-635.
[7]Der Klaauw W V. Regression-discontinuity analysis: A survey of recentdevelopments in economics[J]. Labour, 2008, 22 (2) : 219-245.
[8]Nyhan B, Skovron C, Titiunik R. Differential registration bias invoter file data: A sensitivity analysis approach[J]. American Journal ofPolitical Science, 2017, (61) : 744-760.
[9]Hausman C, David S. Rapson. Regression discontinuity in time: Considerationsfor empirical applications[J]Annual Review of Resource Economics, 2018, 10 (1): 533–552.
[10]余静文, 王春超.新“拟随机实验”方法的兴起——断点回归及其在经济学中的应用[J].经济学动态, 2011, (02):125-131.
[11]Papay J P, Willett J B, Murnane R J. Extending theregression-discontinuity approach to multiple assignment variables[J]. Journalof Econometrics, 2011, 161 (2) :203-207.
[12]Frandsen B R, Frolich M, Melly B, Quantile treatment effects in theregression discontinuity design[J]. Journal of Econometrics, 2012, 168 (2) :382-395.
[13]Card D, Giuliano L. Can tracking raise the test scores ofhigh-ability minority students?[J]. The American Economic Review, 2016, 106(10) : 2783-2816.
[14]Cattaneo M D, Keele L, Titiunik R.Interpreting regressiondiscontinuity designs with multiple cutoffs[J]. The Journal of Politics, 2016,78 (4) : 1229-1248.
[15]Wing C, Cook T D. Strengthening the regression discontinuity designusing additional design elements: A within-study comparison[J]. Journal ofPolicy Analysis and Management, 2013, 32 (4) : 853-877.
[16]Angrist J D, Rokkanen M. Wanna get away? Regression discontinuityestimation of exam school effects away from the cutoff[J]. Journal of theAmerican Statistical Association, 2015, 110 (512) : 1331-1344.
[17]Kolesar M, Rothe C. Inference in regression discontinuity designswith a discrete running variable[J]. The American Economic Review, 2018, 108(8) : 2277-2304.
[18]Imbens G W, Kalyanaraman K. Optimal bandwidth choice for theregression discontinuity estimator[J]. The Review of Economic Studies, 2012, 79(3) : 933-959.
[19]Calonico S, Cattaneo M D, Titiunik R. Robust nonparametric confidenceintervals for regression-discontinuity designs[J]. Econometrica, 2014, 82 (6) :2295-2326.
[20]Justin McCrary. Manipulation of the running variable in theregression discontinuity design: A density test[J]. Journal of Econometrics,2008, (142) : 698-714.
[21]Frandsen, Brigham R. Party bias in union representation elections:Testing for manipulation in the regression discontinuity design when therunning variable is discrete[Z]. Unpublished Manuscript, Brigham Young University,Provo Utah, USA, 2013.
[22]Barreca A I, Guldi M, Lindo J M. Saving Babies? Revisiting the effectof very low birth weight classification[J]. Quarterly Journal of Economics,2011, 126 (4) : 2117-2123.
[23]Gelman A, Imbens G W. Why High-order Polynomials Should not be Usedin Regression discontinuity designs[J]. Journal of Business & EconomicStatistics, 2017, (05) : 1-10.
[24]Dell M. Trafficking networks and the Mexican drug war[J]. TheAmerican Economic Review, 2015, 105 (6) : 1738-1779.
[25]Pinotti P. Clicking on heaven's door: The effect of immigrantlegalization on crime[J]. The American Economic Review, 2017, 107 (1) :138-168.
[26]Malamud O, Popeleches C. Home computer use and the development ofhuman capital[J]. Quarterly Journal of Economics, 2011, 126 (2) : 987-1027.
[27]Chetty R, Friedman J N, Lethpetersen S. Active vs. passive decisionsand crowd-out in retirement savings accounts: Evidence from Denmark[J].Quarterly Journal of Economics, 2014, 129 (3) : 1141-1219.
[28]Meng K C. Using a free permit rule to forecast the marginal abatementcost of proposed climate policy [J]. The American Economic Review, 2017, 107(3) : 748-784.
[29]Clark D, Martorell P. The signaling value of a high schooldiploma[J]. Journal of Political Economy, 2014, 122 (2) : 282-318.
[30]Deshpande, Manasi. Does welfare inhibit success? The long-termeffects of removing low-income youth from the disability rolls[J]. The AmericanEconomic Review, 2016, 106 (11) : 3300-3330.
[31]Auffhammer M, Kellogg R. Clearing the air? The effects of gasolinecontent regulation on air quality [J]. The American Economic Review, 2011, 101(6) : 2687-2722.
[32]王骏, 孙志军.重点高中能否提高学生的学业成绩——基于F县普通高中的一个断点回归设计研究[J].北京大学教育评论, 2015, (04):82-109, 186.
[33]李宏彬, 施新政, 吴斌珍.中国居民退休前后的消费行为研究[J].经济学 (季刊) , 2015, (01):117-134.
[34]张川川, John Giles, 赵耀辉.新型农村社会养老保险政策效果评估——收入、贫困、消费、主观福利和劳动供给[J].经济学 (季刊) , 2015, (01):203-230.
[35]张明.税收征管与企业全要素生产率——基于中国非上市公司的实证研究[J].中央财经大学学报, 2017, (01):11-20.
[36]马光荣, 郭庆旺, 刘畅.财政转移支付结构与地区经济增长[J].中国社会科学, 2016, (09):105-125.
[37]何文剑, 徐静文, 张红霄.森林采伐限额管理制度能否起到保护森林资源的作用[J].中国人口·资源与环境, 2016, (07):128-136.
[38]李江一, 李涵.新型农村社会养老保险对老年人劳动参与的影响——来自断点回归的经验证据[J].经济学动态, 2017, (03):62-73.
[39]王家庭, 毛文峰, 臧家新, 等.节约集约用地政策对城市蔓延的遏制效应[J].城市问题, 2017, (05):9-16.
[40]曹静, 王鑫, 钟笑寒.限行政策是否改善了北京市的空气质量?[J].经济学 (季刊) , 2014, (03):1091-1126.
[41]杨小聪, 彭飞, 康丽丽.绿色地铁:轨道交通对空气污染的净化效果评估——基于南京地铁3号线的实证研究[J].甘肃行政学院学报, 2017, (04):82-94, 129-130.
[42]张英, 陈绍志.产权改革与资源管护——基于森林灾害的分析[J].中国农村经济, 2015, (10):15-27.
[43]陈强, 孙丰凯, 徐艳娴.冬季供暖导致雾霾?来自华北城市面板的证据[J].南开经济研究, 2017, (04):25-40.
[44]黄新飞, 杨丹.产业转移促进区域经济协调发展了吗——基于广东省县域数据的断点回归分析[J].国际经贸探索, 2017, (02):101-112.
[45]高彦彦, 王逸飞.熔断制度可以降低中国股市波动吗?——基于断点回归设计的实证分析[J].华东经济管理, 2017, (06):104-112.
[46]王旭光.新型农村养老保险政策提升农民消费水平了吗——来自CFPS数据的实证研究[J].南方经济, 2017, (01):1-12.
[47]邹红, 喻开志.退休与城镇家庭消费:基于断点回归设计的经验证据[J].经济研究, 2015, (01):124-139.
[48]邓婷鹤, 何秀荣.退休对男性老年人健康的影响——基于断点回归的实证研究[J].人口与经济, 2016, (06):82-91.
[49]Crost B, Felter J H, Johnston P B, et al. Aid under fire: Developmentprojects and civil conflict[J]. The American Economic Review, 2014, 104 (6) :1833-1856.
注释
1 分别为American Economic Review (AER) 、Econometrica (ECMA) 、Journal ofPolitical Economy (JPE) 、Quarterly Journalof Economics (QJE) 和Review of EconomicStudies (RES) 。
2 不包括五大上关于RDD方法的理论研究论文。我们在Jstor数据库中用全文任一地方出现“regression discontinuity”这个关键词检索, 然后剔除不是运用RDD做的经验研究论文, 譬如RDD的理论研究论文、仅论文文献综述或脚注中出现“regression discontinuity”的论文等。
3 这方面的一个表现是, 大量行政管理数据 (administrativedata) 被用于经济学经验研究。根据英国《经济学人》 (The Economist) 的报道, NBER (National Bureau of Economic Research) 工作论文摘要里出现“administrative data”的论文数, 2000年是0篇, 之后快速增长, 2017年达到28篇。报道链接为:https://www.economist.com/international/2018/05/26/government-data-are-ever-more-important-to-economic-research。
4 中文核心期刊论文数的检索方法如下:在中国知网检索出主题包含“断点回归”、发表年度为2011年至2017年的中文社会科学引文索引 (CSSCI) 期刊论文, 然后逐一检查、剔除非经验研究论文, 最后剩下46篇。将检索限定在中文社会科学引文索引期刊, 是为了保证检索到的论文的质量。英文五大期刊论文数的检索方法如下:在Jstor数据库中用全文任一地方出现“regressiondiscontinuity”这个关键词、发表年度为2011至2017年、期刊为五大期刊检索到50篇, 然后逐一检查、剔除非经验研究论文, 最后剩下39篇。
5 Imbens和Kalyanaraman (2009) 是工作论文, 后来于2012年发表在《Review of EconomicStudies》上。
6 用Stata软件实现这些新进展的操作命令可以参考Cattaneo et al.(2018) , 更详细的操作命令细节可参考本文所引用文献的网上附件。这些网上附件可在发表各引用文献的期刊官网上下载。
7 作者文中用的都是4次多项式, 没解释不用其他次数多项式的原因。
8 作者说这是经验上的做法, 没解释这样做的原因。
9 Lee和Lemieux (2010) 在脚注中提到了之后应用广泛的IK法 (Imbens和Kalyanaraman, 2009), 但是文中举例只使用拇指规则法和交叉验证法, 没使用IK法。
10 实际上, 甜甜圈RDD也可以克服数据操纵问题对估计结果的影响。
11 分别来自美国、巴西、挪威、意大利等17个国家。
12 为方便讨论, 使用矩形核密度函数的非参数估计虽然等同于参数估计, 但此处只将其归为非参数估计。
13 运用IV必需的技术环节是报告第一阶段回归的F统计量取值, 运用DID必需的技术环节是做平行趋势假设检验。
·END·
点击阅读原文,进入新型农业经营主体大数据库
出处:计量经济学服务中心
推荐:青酱
排版编辑:青酱
欢迎扫描👇二维码添加关注
点击下方“阅读全文”了解更多